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Работа посвящена анализу практической значимости решения проблемы пофонемного распознавания 
речи; выявлению важных для распознавания свойств языка и речи; разработке на их основе схемы 
анализа речи и методов пофонемного распознавания речи. 


Введение 


Сложную не решенную на сегодняшний день проблему распознавания речи 
считают актуальной с 50-х годов прошлого столетия по ряду причин. 

Поскольку параметризованная речь — это многомерный временной ряд, 
анализируя который принимают решение о произнесённом сообщении, данная 
проблема относится к области принятия решений на основе анализа временных 
рядов. Такие задачи распространены в экономике, управлении и т.п. 

Пофонемное распознавание выполняется путём анализа множества составных 
гипотез (последовательностей фонем, последовательностей слов и т.д.), соответству- 
ющих произнесению. Новые методы пофонемного распознавания могут повлиять на 
развитие методов принятия решений на основе анализа составных гипотез. 

Кроме того, в речи используется многоуровневая система дублирующих друг 
друга знаков, что обеспечивает значительный запас помехоустойчивости при передаче 
сообщений между людьми. Изучение этой многоуровневой системы знаков, способов 
взаимодействия между знаками различных уровней тесно связано с моделированием 
интеллектуальной деятельности человека, требует привлечения средств компьютерной 
лингвистики и других направлений искусственного интеллекта, а успех в этой области 
будет способствовать развитию средств интеллектуализации компьютерных интер- 
фейсов, ускорению и упрощению процесса человеко-машинного общения. 

В последнее время в области речевых технологий можно отметить использование 
статистических методов описания речи на акустическом, лексическом и более высоких 
уровнях. Это оправдано, если в основании лежит адекватная модель объекта. Кроме 
того, неявное использование свойств объекта (что происходит при его статистическом 
описании) в практических целях не развивает науку о самом объекте. С этой точки 
зрения актуальной является разработка методов пофонемного распознавания, 
использующих явно заданные свойства языка и речи. 

Объект исследования -— речь как средство передачи сообщений. 

Предмет исследования — модели и методы представления и распознавания речи. 

Методы исследования. Методы теории информации и кодирования, 
положения теорий речеобразования и восприятия речи, акустической фонетики, 
синтаксиса для анализа речи как объекта. 
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Целью работы является разработка методов пофонемного распознавания речи, 
использующих явно заданные свойства языка и речи. 

Поставленная цель определила задачи исследования. 

1. Выявить важные для распознавания свойства языка и речи. 

2. Проанализировать существующие методы распознавания речи, положенные 
в их основу схемы анализа речи, с точки зрения использования выделенных свойств. 

3. Разработать схему анализа речи и методы распознавания речи, использующие 
явно заданные свойства речи. 


Использование свойств языка и речи 


Анализ источников позволил выделить следующие свойства языка и речи. 

1. Продуктивность (СТ) — «возможность продуцировать сколь угодно большое 
количество информационных сообщений, обладающих разным смыслом» [1]. 

2. Помехозащищённость (С2) — «сохранение смысловой информации при 
различных вариантах акустических помех и искажений», «достаточная точность 
передачи смысловой информации при различных вариантах нарушений (не только 
патологических, но чаще всего ситуационных) процессов речеобразования и 
речевосприятия» [1]. 

3. Параллельное независимое использование сегментного и целостного 
восприятия слов в потоке речи (СЗ) — один из механизмов, обеспечивающих 
помехозащищенность речи [1]. 

4. Звуки, образованные различными источниками звука (голосовой, шумовой, 
голосовой и шумовой) [2], хорошо различимы (С4). 

5. Звуки речи вариативны и изменчивы. Цельного, однородного звука, соответ- 
ствующего фонеме, не существует (С5) [3, с. 22]. 

6. Фонема — минимальная единица языка, которая служит для различения и 
отождествления значимых единиц языка (С6). Утверждение вытекает из опреде- 
ления фонемы: фонема -— группа звуков, обладающих определенной артикуляторно- 
слуховой общностью, и функционально друг другу не противопоставленных, т.е. не 
встречающихся в одинаковом положении в фонетической структуре слова [4]. 

Учёт данных свойств различными методами распознавания речи, а также 
характеристики этих методов отражены в табл. 1. 


Таблица | — Характеристики методов распознавания речи 


Харак- Описание Учёт свойств языка и 
Возможности метода >. 
терис- уровней языка | СРР речи 
тики Ф © с = 
1 На, ое 
жж чаыонеа © ом Яо 
ша ноноао а НЕ 8 5 =0 
"= “о и = о 
В ВИ С1 | С2 | СЗ | С4 | С5 | Сб 
ва БЕ ВЕЕ Я = 96 82 
а ао < ВЕ 
Методы \ Н © & ано &5 = 
НС - Е ь - |-- |- - К | -1+-|-|-| - 
двд | - - |. - к: [+= 
СММ Се С к ---1-|-| - 
КДП С 12-е Лл--|-1|-|-|- 
АФП Я С С Л1-|-|+1+|- | - 
ИИ яя Я ЕЕ. + | - 
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В табл. 1 использованы следующие обозначения: СРР — системы распознавания 
речи; СММ - скрытые марковские модели; КДП - метод, сочетающий композицию 
(К) и динамическое программирование (ДП); НС - нейронные сети; ДВД - метод 
динамической временной деформации; АФП -— методы акустическо-фонетического 
подхода; ИИ - методы искусственного интеллекта; Я — явное использование свойств 
языка и речи; С — статистическое описание свойств языка и речи; К — коммерческие 
системы распознавания речи; Л — лабораторные системы распознавания речи. 

Свойства С1 — Сб, а также результаты собственных исследований [5], [6] 
позволили дополнительно сформулировать ряд гипотез относительно свойств речи, 
необходимых для достижения поставленной цели. 


Гипотеза 1: Речь — относительный блочный код ( Г1) 


а) Относительность кода. В кодировании принимает участие интенсивность и 
частотные характеристики звука. Кодирование производится не за счёт предъявления 
в частотной области сигналов определённой интенсивности, а за счёт изменения 
спектральных характеристик и интенсивности. 

6) Блок речи (БР) — это: 

— фрагмент речи, отделённый от остальной речи межфразовыми паузами (дыха- 
тельными, интонационными и др.); 

— фрагмент речи конечной длины; 

— изолированное слово или слитно произносимая фраза. 


Гипотеза 2: Синтаксическая структура БР формализуема ( Г2.) 


БР — это изолированное слово или простое распространённое неосложнённое 
предложение. 


Гипотеза 3: Фонема -— это единица смыслоразличения, а не единица 
различения звуков ( ГЗ ) 


Часть гипотезы Г1, касающаяся относительности кода, предполагает возможность 
использования относительных порогов (не абсолютных), которые возможно установить, 
исходя из результатов анализа распознаваемого речевого сигнала (РС). Использование 
данной гипотезы [7-9] даёт возможность повышения эффективности и устойчивости 
работы СРР при смене звукозаписывающего оборудования и параметров окружения. 
Представление речи как последовательности БР, естественным образом отделимых друг 
от друга во времени, позволяет выявить ограничения на длину и структуру этих единиц, 
что позволит формализовать их с учётом С4 и Г2 [6]. Третья гипотеза основана на 
свойствах С5 и Сб. Она, в отличие от общепринятой в традиции, предполагает выполне- 
ние анализа РС как последовательности фонем (очень размытых в пространстве акусти- 
ческих признаков классов) уже после генерации гипотез о слове или последовательности 
слов, соответствующих произнесению (смысловых единиц). 

На рис. 2 а - в приведены используемые в современных системах распознавания 
схемы обработки речи. 

Хорошо разделимыми в пространстве акустических признаков являются широкие 
фонетические классы (ШФК) звуков, образованные различными источниками звука (СА): 
невокализованные смычки ([п, т, к]); невокализованные фрикативные ([11, щ, ч, с, ц, 


ф, х|); вокализованные фрикативные ([ж, з, дж, дз]); остальные вокализованные 
согласные и гласные. Искажения РС, приводящие к ошибкам в различении ШФК-клас- 
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сов, делают этот РС нераспознаваемым и для человека. Следовательно, выдвижение 
или исключение гипотез о произнесении необходимо выполнять по результатам 
анализа последовательности ШФК звуков РС. 

Исходя из сказанного, схема обработки речи должна иметь вид, представ- 
ленный на рис. 1г. За счёт анализа всех допустимых кандидатов (С2) такая схема 
обеспечивает параллельное независимое использование сегментного (фонемного) и 
целостного восприятия потока речи (СЗ). Ограничение на длину распознаваемого БР 
позволяет предположить формализуемость фразы как последовательности слов. 
Анализ речи блоками (Г1) может содействовать переходу в распознавании речи от 
абсолютных порогов к относительным, вычисляемым по БР, а также к возмож- 
ности формализации их синтаксической структуры (Г2). Учёт (СТ), полученной 
системой распознавания, зависит от способа организации модуля проверки синтак- 
сической связности последовательности слов. Основанная на С5 и С6, гипотеза ГЗ 
отражает порядок анализа РС — фонемный уровень следует за анализом слов или 
последовательностями слов. 


Блок речи 


Многомерный 
оо В _ Речь 
временной ряд 
Я — С Последовательность звуков 
ИЕ, Е Последователь- ШФК 
Результат НОСТЬ 
распознавания разделимых 
а) звуков 


Последователь- 
ность ШФК- 


Последователь- м 
транскрипций слов 


ность фонем 


Последователь- 
ность фонем Синтаксически свя- 
занная последова- 


тельность слов С! 


Слово 
НОСТЬ СЛОВ 


Слово 


Последователь- 


Последовательность фонем 


Результат распознавания 


Результат в) г) 
распознавания 


Последователь- 
НОСТЬ СЛОВ 


Результат 


распознавания 


и 


Рисунок 1 — Схемы обработки речи различными методами: а) ДВД, 6) СММ, 
в) методами акустическо-фонетического направления, 
г) предложенная схема обработки блока речи 
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Рассматривая слитную речь как последовательность БР, в задаче распознавания 
получаем две подзадачи: распознавания БР и выбор последовательности БР. Выбор 
последовательности БР — задача семантического уровня, средствами для решения 
которой мы не обладаем на данном этапе. Рассмотрим подзадачу распознавания БР. 

Ориентируясь на разработку моделей и алгоритмов пофонемного распознавания 
речи, использующих явно заданные свойства языка и речи, попадаем в область ИИ, 
где используют методы интеграции источников знаний «снизу-вверх» и «сверху- 
вниз». С учётом предложенной схемы обработки блока речи разработаны модели 
пофонемного распознавания «снизу-вверх» (рис. 2а) и «сверху-вниз» (рис. 26). 

На рис. 2 использованы следующие обозначения: БР — блок речи; ШФКТ - 
транскрипция согласно широкой фонетической классификации; ШФКТС -— транскрипция 
слова согласно широкой фонетической классификации; МИ -— морфологическая 
информация о слове (часть речи, род, число и пр.); ФТ — фонетическая транскрипция; 
ПО — предметная область; КСГ — контекстно-свободная грамматика, описывающая 
синтаксис языка. 

Данные модели в качестве явно заданных закономерностей речи используют для 
ограничения количества гипотез фраз ШФК-транскрипции БР. Закономерности языка 
отражают правила синтаксиса, описывающие синтаксис простых распространённых 
неосложнённых предложений, а закономерности предметной области — соотношение 
понятий, выраженное в возможности участия групп слов в определенных видах 
синтаксической связи. 

Распознавание речи при интеграции источников знаний «снизу-вверх» может 
применяться в задачах диктовки, стенографирования, распознавания спонтанной речи — 
т.е. в случае, когда трудно заранее оценить перечень возможных фраз и речь нужно 
фиксировать, а не ставить ей в соответствие некоторое действие. Система, моделиру- 
ющая этапы «Генерация гипотез последовательностей ШФКТС», «Генерация 
гипотез последовательностей слов», «Выбор синтаксически допустимых гипотез 
фразы», описана в работе [5]. При этом множества гипотез (последовательностей 
ШФКТС, последовательностей слов, фразы) генерируются, анализируются и хранятся 
в явном виде благодаря способу представления составных гипотез, изложенному в 
работе [10]. 

Системы распознавания команд и вопросно-ответные системы предполагают 
выполнение определённого действия как реакции на результат распознавания. Для 
обеспечения устойчивой работы системы перечень фраз и действий целесообразно 
определять до этапа эксплуатации. В таком случае логично применение метода 
интеграции знаний «сверху-вниз». 

По сравнению с распознаванием слитно произносимых фраз согласно методу 
«снизу-вверх», синтезирующему множество гипотез фразы и анализирующему эти 
гипотезы, в данном методе выполняется поиск множества гипотез распознаваемой 
фразы, что требует значительно меньших вычислительных затрат. 

Отметим, что для системы распознавания в этом случае не имеет значения 
распознаёт она слово или фразу - и то, и другое известно системе и представляется по- 
следовательностью фонем. То есть для этапа «Пофонемное распознавание» (как для 
модели «снизу-вверх», так и для модели «сверху-вниз») можно использовать алгоритмы 
пофонемного распознавания изолированных слов [11]. Фонетическую транскрипцию 
каждой фразы можем получить с помощью транскриптора, использованного в 
работе [12], а ШФК-транскрипцию фразы по её написанию - с учётом [5]. Формирование 
структур словаря фраз, обеспечивающих их скоростной поиск, выполним согласно [10]. 
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Получение ШФК-транскрипции БР можно выполнять, опираясь на работы [7-13]; поиск в 
словаре фраз множества гипотез фразы, соответствующих ШФК-транскрипции 
фрагмента речи, обеспечивается сформированными на подготовительном этапе 
структурами словаря фраз согласно [10]. 


блок речи 


Определение ШФКТ БР 


Генерация гипотез последовательностей ШФКТС 
ШФКТС 
Генерация гипотез последовательностей слов Слова, МИ 
Правила 
Выбор синтаксически допустимых гипотез фразы 4<—— синтаксиса 
СНИЖЕНИЕ 


Эталоны фонем 


Пофонемное распознавание 


Рабочий режим 


блокречи 


Определение 
ШФКГБР 


Активация множества ФТ 
фраз, согласно ШФКТ БР 


Пофонемное 
Эталоны фонем | распознавание 
и | фраза 


6) 


Рисунок 2 — Разработанные модели пофонемного распознавания при методах 
интеграции источников знаний «снизу-вверх» а) и «сверху-вниз» 6) 


Следовательно, в указанной модели «снизу-вверх» непроработанным к настоящему 


моменту остался вопрос синтеза фраз предметной области, чему посвятим дальнейшие 
работы. 
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Заключение 


В работе проанализирована проблема пофонемного распознавания речи. Выявлены 
важные для распознавания свойства языка и речи; разработаны на их основе схемы 
анализа речи и методов пофонемного распознавания речи. 

Выявлены важные для распознавания свойства языка и речи, на их основе 
предложено рассматривать слитную речь как последовательность БР, и сформирована 
схема обработки блоков речи. 

В соответствии с данной схемой разработаны методы пофонемного распознавания, 
предполагающие интеграцию источников знаний «снизу-вверх» и «сверху-вниз», опре- 
делены задачи распознавания, в которых они могут быть применены, указаны способы 
реализации элементов системы пофонемного распознавания. 

К отличительным особенностям данных методов относятся явное задание и исполь- 
зование свойств речи и языка; хранение и анализ составных гипотез, представленных 
согласно [10]; исключение из рассмотрения только недопустимых гипотез, а не анализ 
наиболее вероятных. 
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